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Verfahren und System zum Erfassen von Daten aus maschinell 
lesbaren Dokiunenten 

5 Die Erfindung betrifft ein Verfahren und ein System zum Er- 
fassen von Daten aus maschinell lesbaren Dokumenten, wobei 
die Daten einer Datenbank zugeordnet werden, in dem einzelne 
Daten mOglichst automatisch dem Dpkument extrahiert werden 
und in entsprechende Datenbankf elder eingetragen werden, wo- 
10 bei das erf indungsgemSiie Verfahren und System das Erfassen 
von Daten betrifft, falls Daten ftir ein Oder mehrere bestimm- 
te Datenbankf elder eines Dokumentes nicht mit der notwendigen 
ZuverlSssigkeit extrahiert werden konnten, 

15 Verfahren und Systeme zum Erfassen von Daten aus maschinell 
lesbaren Dokumenten sind bekannt. Oblicherweise weisen die 
Systeme einen Scanner auf, mit welchem Vorlagen optisch abge- 
tastet werden. Die hierbei erzeugten Dateien sind maschinell 
lesbare Dokumente und enthalten in der Kegel Textelemente . 

20 Die Textelemente werden mit Hilfe einer OCR-Einrichtung in 
codierten Text umgesetzt. Den Dateien werden in der Regel 
vorbestimmte Formulare bzw. Templates zugeordnet, so dass an- 
hand der Formulare gezielt bestimmte Inf ormationen aus den 
Text enthaltenden Dateien ermittelt werden kOnnen. Diese In- 

25 formationen werden zum Beispiel in einer Datenbank abgespei- 
chert . 

Derartige Verfahren und Systeme werden beispielsweise bei 
grolien Firmen eingesetzt, um Rechnungen zu lesen. Die so ext- 
30 rahierten Daten kdnnen automatisch einer betriebswirtschaf t- 
lichen Software Ubermittelt werden. 

Ein solches System ist in der US 4,933,979 beschrieben. Die- 
ses System weist einen Scanner zum optischen Abtasten von 
35 Formularen auf. Bei diesem System konnen eine Vielzahl von 
Pormulartypen definiert werden, wobei jeder Formulartyp bzw. 
Template durch mehrere Parameter, insbesondere geometrisch 
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definierte Bereiche, in welchen Texte oder Bilder enthalten 
sein sollen, festgelegt ist. Die Formulartypen konnen auch 
durch weitere Eigenschaf ten, wie zum Beispiel der Schrift, 
die in den Texten enthalten ist (Alphabet, Zahlen, Symbole, 
Katakana, Kanji, Handschrift) definiert sein. Nach dem Scan- 
nen eines Formulars wird mittels einer Formulartypunterschei- 
dungseinrichtung dem gescannten Formular ein Template zuge- 
ordnet. Dementsprechend werden die in dem Textfeld enthalte- 
nen Daten mittels einer OCR-Einrichtung gelesen und extra- 
hiert. Falls kein geeignetes Template vorhanden ist, muss ei- 
nes erstellt werden. 

Aus der WO 98/47098 geht ein weit^res System zum automati- 
schen Erfassen von Daten aus maschinell lesbaren Dokumenten 
hervor. Hierbei werden mittels eines Scanners Formulare op- 
tisch abgetastet. Danach wird automatisch eine Linien-Karte 
des Formulars erstel-lt. Hierbei werden zum einen alle Linien 
erfasst als auch grafische Elemente in eine Linienstruktur 
umgesetzt. Andere ELemente, wie zum Beispiel Textabschnitte, 
werden ausgef iltert . Alle vertikalen Linien bilden die Grund- 
lage zur Erstellung eines vertikalen Schlussels und alle ho- 
rizontalen Linien bilden die Grundlage zur Erstellung eines 
horizontalen Schlussels. Danach wird ermittelt, ob bere'its 
ein Template mit einem korrespondierenden vertikalen und ho- 
rizontalen Schiassel vorhanden ist. Falls dies der Fall ist, 
werden die Daten mit einem entsprechenden Template ausgele- 
sen. Ist dies nicht der Fall, so wird anhand des eingescann- 
ten Formulars mittels eines Selbstlern-Modus ein Template er- 
stellt und abgespeichert . 

In dem Buch Modern Information Retrieval von- Baeza-Yates und 
Ribeiro-Neto, Eddison-Wessley Verlag, ISBN 0-201-39829-X sind 
die Grundlagen von Datenbanken und zum schnellen Wiederauf- 
finden von in Datenbanken gespeicherten Inf ormationen erlau- 
tert. So ist im Kapitel 8.2 ein Verfahren mit invertierten 
Dateien, das aiich als invertierter Index bezeichnet wird, be- 
schrieben. Bei diesem Verfahren wird aus einem zu untersu- 
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chenden Text zun^chst ein Worterbuch mit alien im Text ent- 
haltenen We^rtern erstellt. Allen Wortern des Worterbuches 
warden eine oder mehrere Zahlen zugeordnet, die angeben, an 
welcher Stelle das Wort im Text auftritt. Derartige inver- 
5 tierte Dateien erlauben eine schnellere automatische Analyse 
eines zu durchsuchenden Textes. Im Kapitel 8.6.1 ist ein 
String Matching-Verf ahren beschrieben, mit welchem zwei 
Strings verglichen werden und ein zur Ahnlichkeit der Strings 
indirekt proportionales KostenmafJ berechnet wird. Wenn die 

10 beiden Strings identisch sind, ist der Betrag des KostenmaBes 
Null. Je starker sich die Strings unterscheiden, desto grSIJer 
ist der Betrag des KostenmaBes. Das KostenmaB ist somit ein 
Ausdruck ftir die Ahnlichkeit der beiden Strings. Dieses und 
^hnliche Verfahren sind auch unter den Bezeichnungen Approxi- 

15 mate String Matching, Levenshtein- Verfahren, Elastic Matching 
und Viterbi-Algorythmus bekannt, Diese Verfahren gehoren zu 
dem Gebiet der dynamischen Programmierung . - 

Aus der noch nicht verof f entlichten Patentanmeldung DE 103 42 
20 594.2 geht ein Verfahren und ein System zum Erfassen von Da- 
ten aus mehreren maschinell lesbaren Dokumenten hervor, bei 
dem aus einem zu bearbeitenden Dokument, dem Lesedokument , 
Daten extrahiert werden, indem sie an Positionen aus dem Le- 
sedokument ausgelesen werden, die durch in einem Vorlagedoku- 
25 ment eingetragene Felder bestimmt sind. 

Tritt ein Fehler beim Auslesen der Lesedokumente auf, wird 
das Lesedokument an einem Bildschirm dargestellt und ledig- 
lich durch Markieren entsprechender Felder im Lesedokument 

30 kSnnen die Daten ausgelesen werden. Hierbei werden, falls es 
erforderlich ist, automat isch weitere Vorlagedokumente anhand 
der markierten Lesedokumente erstellt bzw. vorhandene Vorla- 
gedokumente entsprechend korrigiert. Dieses System ist derart 
einfach bedienbar, so dass keine speziellen Computer- oder 

35 Sof twarekenntnisse notwendig sind. 
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Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und 
ein System zum Erfassen von Daten aus maschinell lesbaren Do- 
kumenten zu schaffen, bei dem die Eingabe der Daten gegenUber 
dem bekannten Verfahren erheblich vereinfacht wird^ falls Da- 
ten nicht automatisch extrahiert warden konnten. 

Die Aufgabe wird durch ein Verfahren mit den Merkmalen des 
Anspruchs 1 und durch ein System mit dem Merkmal des An- 
spruchs 16 gel5st. Vorteilhafte Ausgestaltungen der Erfindung 
sind in den jeweiligen UnteransprUchen angegeben. 

Mit den oben erlauterten Verfahren konnen Daten aus mehreren 
maschinell lesbaren Dokumenten erfasst werden, wobei die Da- 
ten einer Datenbank zugeordnet werden, indem einzelne Daten 
moglichst automatisch dem Dokument. extrahiert werden und in 
entsprechende Datenbankf elder eingetragen werden. Falls Daten 
far ein oder mehrere bestimmte Datenbankf elder einem Dokument 
nicht mit der notwendigen Zuverlassigkeit extrahiert werden 
konnten, zum Beispiel -well ein Fehler festgestellt worden 
ist, der beispielsweise dadurch verursacht sein kann, dass in 
dem Dokument an der Stelle, wo die Daten gelesen werden soli- 
ten, keine Daten bder f alsche Daten- vorhanden sind, oder dass 
beim Einlesen dieses Dokumentes mittels eines OCR-Verf ahrens 
ein Oder mehrere Zeichen falsch umgesetzt werden, so werden 
erfindungsgemaU folgende Schritte ausgeftahrt: 

- Darstellen des Dokumentes an einem Bildschirm, 

- Anzeigen des Datenbankf eldes, fUr das die Daten nicht mit 
der notwendigen Zuverlassigkeit extrahiert werden konnten, 
am Bildschirm 

- AusfUhren einer Vorschlags-Routine, mit welcher Stringab- 
schnitte in der Nahe eines von einem Benutzer auf dem 
Bildschirm bewegbaren Zeiger ausgewahlt, markiert und zur 
Extraktion vorgeschlagen werden. 

Das Dokument wird am Bildschirm dargestellt, damit der Benut- 
zer es lesen kann. Zudem wird das Datenbankf eld angezeigt. 
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fiir das die Daten nicht mit der notwendigen Zuverlassigkeit 
extrahiert werden konnten. Hierdurch wird der Benutzer in 
Kenntnis darliber gesetzt, ftir welches Datenbankf eld die Daten 
aus dem am Bildschirm dargestellten Dokument noch zu extra- 
5 hieren sind. 

Durch das Ausfuhren bzw. Aktivieren der Vorschlags-Routine 
werden Stringabschnitte in der Nahe eines von dem Benutzer 
auf dem Bildschirm bewegbaren Zeiger ausgewahlt, markiert und 
zur Extraktion vorgeschlagen • Hierdurch muss der Benutzer le- 
diglich den Zeiger auf dem am Bildschirm dargestellten Doku- 
ment in die Nahe eines Stringabschnittes bewegen^ der die Da- 
ten fur das angezeigte Datenbankf eld • enthalt . Die Daten wer- 
den dann automatisch ausgew^hlt, markiert und zur Extraktion 
vorgeschlagen. Der Benutzer kann dann lediglich- durch Betati- 
gen einer bestimmten Taste den vorgeschlagenen Stringab- 
schnitt in das Datenbankfeld ubernehmen. 

Durch das automatische Auswahlen und Markieren des Stringab- 
schnittes -wird der Vorgang dei: Obernahrae der noch fehlenden 
Daten erheblich vereinfacht und beschleunigt . 

Nach einer bevorzugten . Ausf tihrungsf orm der Erfindung werden 
beim AuswShlen des Stringabschnittes Konzept-Inf ormationen 
berticksichtigt, die dem jeweiligen Datenbankfeld zugeordnet 
sind. 

Die Erfindung wird nachfolgend beispielhaft anhand der Zeich- 
nung naher eriautert. In der Zeichnung zeigen: 
30 

Figur 1 ein Verfahren zum Erfassen von Daten aus einem Do- 
kument, die nicht automatisch extrahiert werden 
konnten, 

35 Figur 2-6 jeweils Kopien von Bildschirmdarstellungen zu 
einzelnen Verf ahrensschritten des in Figur 1 ge- 
zeigten Verfahrens, 
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Figur 7 ein Verfahren zum Extrahieren von in Tabellen ange- 
ordneten Daten, 

Figur 8^ 9 jeweils eine Tabelle mit markierten Daten, und 

Figur 10 ein System zum Ausftlhren des erf indungsgemafien Ver- 
f ahrens . 

Das erf indungsgemSfie Verfahren zum Erfassen von Daten aus 
maschinell lesbaren Dokumenten ist eine Weiterbildung der 
eingangs erlSuterten Verfahren, mit welchen aus Dokumenten 
maschinell Daten extrahiert und in einer Datenbank gespei- 
chert werden k5nnen. 

Bei diesen Verfahren konnen jedoch nicht immer alle Daten- 
bankfelder der Datenbank zuverlas.sig mit aus den Dokumenten 
extrahierten Daten gefullt werden. Liegt zum Beispiel beim 
Extrahieren der .Daten ein Fehler vor, so wird das automati- 
sche Verfahren unterbrochen und- unter Mitwirkung eines Benut- 
zers werden die Daten aus dem* Dokument manuell in Datenbank- 
f elder iibertragen.- Ein solcher Fehler kann dadurch verursacht 
sein, dass in dem zu bearbeitenden Dokument kein geeigneter 
Stringabschnitt gefunden wird, aus dem die Daten gelesen wer- 
den konnen Oder der Stringabschnitt fehlerhafte Daten ent- 
hait, die beispielsweise beim Umsetzen in codierten Text des 
Dokumentes mittels eines OCR-Verf ahrens entstanden sind. 

Das erf indungsgemafle Verfahren beginnt somit dann, wenn Da- 
ten nicht zuveriassig extrahiert werden kSnnen. Der Ausdruck 
,/nicht zuverlSssig extrahierbar^^ umfasst sowohl grundsatzli- 
che Fehler beim Lesen von Daten, die ein Lesen der Daten 
nicht moglich machen als auch gelesene Daten, die zum Bei- 
spiel unter Beriicksichtigung von Kontext-Inf ormationen auf 
das Datenbankf eld abgebildet werden, wobei die Giite der Ab- 
bildung ermittelt wird, Derartige Abbildungsverf ahren sind 
zum Beispiel das eingangs erlauterte String Matching- 
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Verfahren. 1st die hierbei erzielte Abbildungsgute zu gering, 
so werden die automatisch eingelesenen Daten als nicht aus- 
reichend zuverlassig bewertet und verworfen. 

Nachfolgend wird das erf indungsgemalie Verfahren anhand des 
in Figur 1 dargestellten Flussdiagramms erlautert. In dem 
Flussdiagrairan sind alle Schritte, die automatisch ausgeftihrt 
werden, mit einem ,,a^^ im Kreis und alle vom Benutzer manuell 
zu tatigenden Schritte mit einem ,,m^^ im Kreis gekennzeichnet . 

Es beginnt mit dem Schritt SI. 

Nachdem zumindest Daten fur ein Datenbankf eld nicht mit der 
notwendigen Zuverlassigkeit extrahiert werden konnten, wird 
das entsprechende Dokument 1 an einem Bildschirm 2 darge- 
stellt und das Datenbankf eld 3 angezeigt (Schritt S2) . Figur - 
2 zeigt eine Bildschirmdarstellung unmittelbar nach dem Fest- 
stellen, dass Daten nicht mit der notwendigen Zuverlassigkeit 
extrahiert werden konnten, wobei in einem Fenster 4/1 auf der 
rechten Seite der Bildschirmdarstellung das Dokument 1 darge- 
stellt ist. Auf der linken Seite sind zwei Fenster 4/2 und 
4/3 angeordnet. Das Fenster 4/2 enthalt eine Obersicht der zu 
bearbeitenden Dokumente und im Fenster 4/3 sind die einzelnen 
Datenbankf elder angegeben, in welche Daten gespeichert wer- 
den, die aus dem Dokument 1 zu lesen sind. 

In dem dargestellten Beispiel konnte keines der Datenbank- 
felder mit Daten geftillt werden, weshalb die einzelnen Daten- 
bankf elder 3 mit dem Zusatz [empty] versehen sind. Es ist je- 
doch auch mSglich, dass nur in wenigen Datenbankf eldern oder 
lediglich in einem einzigen Datenbankf eld Daten fehlen. 

In Figur 2 ist das Datenbankf eld ^InvoiceNumber'' (= Rech- 
nungsnummer) im Vergleich zu den anderen Datenbankf eldern 3 
dunkler markiert, was dem Benutzer anzeigt, dass fur dieses 
Datenbankf eld 3 Daten aus dem Dokument 1 zu extrahieren sind. 
ZusStzlich ist im oberen Bereich des Fensters 4/1 in grofier 
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Schrift der Begriff ^InvoiceNumber^' aufgefuhrt, das dem Be- 
nutzer zusatzlich anzeigt, fur welches Datenbankf eld Daten zu 
extrahieren sind. 

Der Benutzer kann nun im Fenster 4/1 einen Zeiger 5 positio- 
nieren, den er vorzugsweise derart anordnet, dass er sich 
mSglichst nahe an dem Stringabschnitt befindet, von dem der 
Benutzer annimmt^ dass dessen Inhalt in dem entsprechenden 
Datenbankf eld abzuspeichern ist. In dem in Figur 2 gezeigten 
Beispiel sind Daten ftir das Datenbankf eld ^,Rechnungsnummer'^ 
zu extrahieren, weshalb der Zeiger 5 in der Nahe der Rech- 
nungsnummer ,,4361^' positioniert wird (Schritt S3) . 

Der Zeiger 5 kann hierbei mittels einer Maus 6 oder durch 
Eingabe an einer Tastatur 7 im-Fenster 4/1 bewegt werden. 

Nach dem -Positionieren -des Zeigers 5 beginnt eine Vor- 
schlags-Routine, die mehrere Verf ahrensschritte umfasst. Die- 
se* Vorschlags-Routine kann einer seits dadurch au.sgel5st wer- 
den, dass der Zeiger 5 ein vorbestimmtes Zeitintervall nicht 
bewegt wird, wodurch dann die Vorschlags-Routine automatisch 
ausgeftihrt wird, oder dadurch> dass eine bestimmte Taste ei- 
ner Maus Oder der Tastatur bestatigt wird. 

Im Schritt S4 wird zunSchst geprUft, ob in der naheren Umge- 
bung des Zeigers ein Stringabschnitt mit einem fUr das Daten- 
bankf eld 3 geeigneten Konzept vorhanden ist, sofern dem ent- 
sprechenden Typ des Datenbankf eldes vorab Konzeptinf ormatio- 
nen zugeordnet wurden. Diese Konzeptinf ormationen umfassen 
die Syntax und/oder die Semantik des Datenbankf eldes . Inf or- 
mationen zur Syntax sind zum Beispiel die Anzahl von Ziffern 
und/oder Buchstaben und/oder vorbestimmte Formate des zu le- 
senden Stringabschnittes . So weisen Datumsf elder, Betragsf el- 
der und Adressf elder in der Regel bestimmte Formate auf . In- 
f ormationen zur Semantik umfassen vorbestimmte Begriff e, die 
in das entsprechende Datenbankf eld eingefiigt werden konnen. 
Dies ist zum Beispiel bei Wahrungsangaben zweckmaBig, oder 
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wenn die Artikelbezeichnung eines bestimmten Lieferanten ein- 
gelesen werden sollen, der eine begrenzte Anzahl von Artikeln 
liefern kann. Die entsprechenden Artikelbezeichnungen sind 
dann in eineiti Lexikon abgelegt und konnen dann eindeutig er- 
kannt werden. 

Bei dem in Figur 2 dargestellten Ausf iihrungsbeispiel befin- 
den sich in der Nahe des Zeigers 5 die zwei Stringabschnitte 
,,4361^' und ,,02.08.2002^'. Der letzte Stringabschnitt besitzt 
die Syntax eines Datums, weshalb er zum Extrahieren der Rech- 
nungsniunmer verworfen wird. Der Stringabschnitt ,,4361'^ ent- 
spricht der Syntax einer Rechnungsnuimner . Somit wird im 
Schritt S4 entschieden, dass ein Stringabschnitt. mit einem 
geeigneten Konzept vorliegt, weshalb der Verf ahrensablauf auf . 
den Schritt S5 libergeht. Im Schritt S5 wird der Stringab- 
schnitt ,,4361^' markiert ' (Figur 3) . Die Markierung • erf olgt im 
vorliegenden Ausf iihrungsbeispiel durch eine. farbliche Unter-- 
legung des Stringabschnittes und durch Zeichnen eines Rahmens 
8. . . 

Sollte im Schritt S4 kein geeignetes Konzept .ermittelt wer- 
den, so geht der -Verf ahrensablauf -'auf den Schritt S6 Uber. Im 
Schritt S6 wird das zum Zeiger 5 nachstliegend angeordnete 
Einzelzeichen ermittelt, das im vorliegenden Ausf uhrungsbei- 
spiel gemSiiS Fig. 2-4 die ,,1^' ist- Dariach werden die Grenzen 
des dieses Zeichen enthaltenden Stringabschnittes nach allge- 
meinen Regeln ermittelt. Diese Grenzen kOnnen zum Beispiel 
durch Leer zeichen bzw. Leerraume im Dokument 1 oder durch be- 
stimmte Satzzeichen oder sonstige Markierungen im Dokument 1 
vorgegeben sein. Werden entsprechende Begrenzungsmarkierungen 
erkannt, so wird der dazwischen liegende Stringabschnitt aus- 
gewahlt und markiert. Bei dem in Figur 2 und 3 gezeigten Aus- 
fuhrungsbeispiel befinden sich seitlich des Stringabschnittes 
,,4361'^ jeweils Leerraume, durch die auch nach den allgemeinen 
Regeln eine eindeutige Auswahl der Markierung des Stringab- 
schnittes moglich ist. 
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Unabhangig davon, ob der Stringabschnitt gemali dem Schritt 
S5 Oder gemaB dem Schritt S6 ausgewahlt oder markiert worden 
ist, geht der Verf ahrensablauf auf den Verf ahrensschritt S7 
Uber^ mit der der Stringabschnitt in einem zusatzlichen Rah- 
men 9 als codierter Text und in einem weiteren Rahmen 10 ver- 
grOfiert dargestellt wird* (Fig. 3^ 4) . Bei dem vorliegenden 
Ausftihrungsbeispiel liegt das Dokument 1 als grafische Datei, 
zum Beispiel im pdf, tif, gif/ jpg-Format vor. Oblicherweise 
wird in dem bereits vorausgegangenen Verf ahrensabschnitt das 
Dokument einer OCR-Routine unterzogen und in codierten Text 
umgesetzt. Der codierte Text ist hierbei auch auf Konzepte 
untersucht worden und die entsprechenden Inf ormationen sind 
abgespeichert worden. Diesera codierten Text wird der zu dem 
Stringabschnitt korrespondierende Abschnitt entnommen und in 
dem Rahmen 9 dargestellt. Hierdurch erkennt der Benutzer, ob 
der Stringabschnitt korrekt in codierten Text - umgesetzt wor- 
den ist. ■ - 

Im Rahmen 10 wird der Stringabschnitt im Grafikformat in 
vergrofierter Darstellung dargestellt, wodurch der Benutzer 
auch Details im Stringabschnitt erkennen kann. 

Mit dem Schritt S7 ist die Vorschlags-Routine abgeschlossen . 

Im Schritt S8 beurteilt der Benutzer, ob der ausgewahlte und 
markierte Stringabschnitt grundsStzlich zur Obernahme in das 
Datenbankf eld geeignet ist. Ist dies nicht der Fall, so wird 
der Zeiger 5 erneut positioniert (S3) und die Vorschlags- 
Routine (S4 - S7) wiederholt ausgefiihrt. Ist die Auswahl des 
Stringabschnitts hingegen grundsatzlich geeignet, so beur- 
teilt der Benutzer, ob auch der markierte Bereich korrekt ist 
(Schritt S9) . Ist dies nicht der Fall, so kann der Benutzer 
die Markierung des Stringabschnittes manuell bearbeiten 
und/oder den codierten- Text im Rahmen 9 editieren (Schritt 
SIO) . Mit dem Editieren des codierten Textes konnen Fehler, 
die durch eine nicht korrekte OCR-Umsetzung entstanden sind, 
behoben werden. Bei diesen Korrekturen (Bereich anpassen, E- 
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ditieren) werden automatisch der markierte Bereich und die 
Inhalte der Rahmen 9 und 10 angepasst- 

Ist der markierte Bereich korrekt bzw* vom Benutzer entspre- 
chend iiberarbeitet worden, so geht der Verf ahrensablauf auf 
den Schritt Sll iiber, mit dem die in deiti ausgewShlten String- 
abschnitt enthaltenen Daten in das korrespondierende Daten- 
bankfeld tibertragen werden (Figur 4) . Diese Obertragung der 
Daten wird durch eine Betatigung einer vorbestimmten Taste an 
der Maus oder der Tastatur vom Benutzer ausgelGst- Danach ist 
das Verfahren zum Extrahieren von Daten fUr ein Datenbankf eld 
beendet (S12) • Sind Daten fur weitere Datenbankf elder zu le- 
sen, so beginnt das Verfahren erneut mit dem Schritt SI. In 
Figur 5 ist das nachste zu lesende Datenbankf eld ^Invoice 
Date^^ (- Rechnungsdatum) angezeigt. - - 

Mit dem erf indungsgemalJen Verfahren wird die Tatigkeit eines 
Benutzers beim manuellen Ubertragen von Daten aus einem Doku- 
ment in ein Datenbankf eld lediglich auf das Positionieren des 
Zeigers^ der Kontrolle der automatisch vorgeschlagenen Aus- 
wahl und der eventuellen Korrektur des Bereiches und das Be- 
tatigen einer Taste zum Obertragen der Daten beschrSnkt. Die 
Auswahl und die Markierung des Bereichs des auszuwahlenden 
Stringabschnittes wird vom erf indungsgemSlien Verfahren 
selbsttatig ausgefUhrt. 

Die Figuren 2 bis 5 zeigen die Obernahme von Daten in ein 
einzelnes Datenbankf eld. Durch die Berucksichtigung von Kon- 
zept-Informationen ist es jedoch auch m5glich, mit einem ein- 
zigen Stringabschnitt Daten fUr mehrere Datenbankf elder zu 
extrahieren. Figur 6 zeigt ein entsprechendes Ausf iihrungsbei- 
spiel, in dem die vollstandige Adresse als ein Stringab- 
schnitt markiert und gelesen wird, wobei die Adresse selbst- 
tatig in die einzelnen Datenbankf elder , Name, Firma, Stralie, 
Postleitzahl und Stadt segmentiert wird. 
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Nachfolgend wird eine weitere Ausgestaltung des oben be- 
schriebenen Verfahrens anhand des Flussdiagramms aus Figur 7 
und der Bildschirmdarstellungen gemaB Figur 8 und 9 erlSu- 
tert, mit dem Daten aus Tabellen extrahiert werden konnen, 

5 

Dieses Verfahren beginnt mit dem Schritt S15. 

Im Schritt SI 6 werden die Werte der Tabelle in der ersten 
Tabellenzeile gem^li obigen Verfahren durch Positionieren des 

10 Zeigers, automatisches AuswShlen und Markieren des Stringab- 
schnittes und Obernehmen der Daten in korrespondierende Da- 
tenbankf elder extrahiert. Figur 8 zeigt eine Tabelle, in der 
• die Stringabschnitte der ersten Tabellenzeile markiert sind, 
die in die entsprechenden Datenbankf elder iibernommen worden 

15 sind. Diese Datenbankf elder besitzen die • Struktur einer Ta- 
belle, zum Beispiel sind sie als zwei-dimensionales Datenfeld 
angelegt, so dass beim Extrahieren der Daten in diese. Daten- 
bankfelder das. Verfahren anhand des Datenbankf eldes selbstta- 
tig erkennt, dass Daten aus einer Tabelle ausgelesen werden. 

20 ' 

•Eine Tabellenzeile kann sich auch liber mehrere Seiten 
erstrecken, wenh die Tabelle sich -entsprechend iiber mehrere 
Seiten erstreckt. Sind die Daten der ersten. Tabellenzeile 
vollstandig extrahiert worden, kann der Benutzer durch eine 
25 vorbestimmte Eingabe das automatische Extrahieren der weite- 
ren Tabelleneintrage initiieren. Wird diese Eingabe vom Be- 
nutzer getatigt, so werden im Schritt S17 zunachst eine Liste 
mit alien Stringabschnitten erstellt, die unterhalb der ers- 
ten Tabellenzeile angeordnet sind. 

30 

In Schritt S18 wird mittels einer Kostenf unktion ein Kosten- 
wert zwischen Sequenzen von Stringabschnitten der Liste und 
der Sequenz der Stringabschnitte der ersten Tabellenzeile, 
auf deren Grundlage Daten in die Datenbankf elder im Schritt 
35 S16 extrahiert worden sind, ermittelt. Bei dieser Kostenf unk- 
tion werden den Sequenzen der Stringabschnitte der Liste ge- 
ringe Kosten zugewiesen, deren Stringabschnitte bezuglich ih- 
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rer horizontalen Position und ihrer Breite mit den korrespon- 
dierenden Stringabschnitten der ersten Tabellenzeile uberein- 
stimmen oder zumindest sehr ahnlich sind. Dieser Kostenwert 
ist somit indirekt proportional zur Ahnlichkeit zwischen den 
in der Liste auf gef tihrten Sequenzen von Stringabschnitten und 
den in der ersten Tabellenzeile enthaltenen Sequenz von 
Stringabschnitten . 

Die hierbei verwendete Kostenfunktion entspricht der aus dem 
Kapitel 8.6.1 String Matching Allowing Errors in Modern In- 
formation Retrieval (ISBN 0-201-39829-X) beschriebenen Kos- 
tenfunktion, mit welcher jeweils ein Einzelkostenwert zwi- 
schen einem Stringabschnitt der ersten Tabellenzeile und ei- 
nem Stringabschnitt der weiteren Tabellenzeilen ermittelt 
wird. Da jede Sequenz mehrere Stringabschnitte umfasst^ wird 
mittels des Viterbi-Algorithmus fiir die einzelnen Sequenzen 
von Stringabschnitten jeweils ein- ■ Gesamtkostenwert bzw. Ge- 
samtahnlichkeitswert durch Summieren der Einzelkostenwerte 
berechnet - 

Anhand dieser Kostenwerte bzw. Ahnlichkeitswerte werden die 
Sequenzen von Stringabschnitten als Tabellenzeilen bestimmt, 
deren Ahnlichkeitswert unter einem vorbestimmten Schwellwert 
liegt (S19) . Hierdurch sind alle Tabellenzeilen und damit Ta- 
belleneintrage der Tabelle bestimmt. Sie werden im Schritt 
S20 markiert (Figur 9) und im Schritt S21 extrahieirt, d.h., 
automatisch ausgelesen, gegebenenf alls in codierten Text um- 
gesetzt, und in den entsprechenden Datenbankf eldern gespei- 
chert . 

Mit dem Schritt 322 ist dieses Verfahren beendet, 

Zweckmafiigerweise ist es moglich, die TabelleneintrSge nach- 
zubearbeiten, d.h., die markierten Bereiche zu verandern 
(verschieben, vergroBern, verkleinern) bzw. einzelne Zeilen 
zu entfernen bzw. hinzuzufugen. Bei einer Nachbearbeitung 
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warden die Eintr^ge in den Datenbankf eldern automatisch ent- 
sprechend angepasst. 

Zusatzlich kann beim Auslesen der Daten und Eintragen in die 
5 Datenbankf elder eine zusStzliche Kontrolle durch eine Abbil- 
dung mittels dem String Matching-Verf ahren erfolgen, mit wel- 
cher bestimmt wird, wie gut die EintrSge mit dem durch die 
einzelnen Datenbankf elder vorgegebenen Konzept tibereinstim- 
men . 

10 

Weiterhin kann das erf indungsgemalie Verfahren mit dem in der 
deutschen Patentanmeldung DE 103 42 594.2 beschriebenen Ver- 
fahren zum Erfassen von Daten aus mehreren maschinell lesba- 
ren Dokumenten kombiniert werden^ -weshalb auf die Patentan- 
15 meldung vollinhaltlich Bezug genommen wird und -sie durch Be- 
zugnahme in -die vorliegende Patentanmeldung inkorporiert - 
wird. • * 

Bei diesem Verfahren zum automatischen Erfassen von Daten 
20 aus mehreren maschinell lesbaren Dokumenten werden Vorlagedo- 
kumente mit einem Lesedokument verglichen und deren Ahnlich- 
keit bewertet. Das hierbei angewandte Verfahren kann auch zum 
Auslesen einer Tabelle angewendet werden, wobei die Sequenz 
der a'usgewahlten Stringabschnitte der ersten Tabellenzeile 
25 dem Vorlagedokument entsprechen und die Kombinationen von 
Stringabschnitten der weiteren Tabellenzeilen den Lesedoku- 
ment en entsprechen. 

Bei dem oben beschriebenen erf indungsgemaBen Verfahren zum 
30 Extrahieren von Daten aus Tabellen muss ein Benutzer ledig- 
lich den Zeiger zu den TabelleneintrSgen in der ersten Tabel- 
lenzeile bewegen und die Obernahme der dann automatisch aus- 
gewahlten und markierten Stringabschnitte als Daten fiir das 
entsprechende Datenbankf eld bestatigen. Nachdem er dies far 
35 alle Tabelleneintrage der ersten Tabellenzeile ausgefuhrt 
hat, muss er lediglich durch eine Eingabe das vollstandige 
Auslesen der weiteren Tabelleneintrage initiieren. Das Ver- 
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fahren ermittelt dann selbststandig die weiteren Tabellenein- 
trSge, markiert sie und extrahiert die Daten in die Daten- 
bank. 

Dies beschleunigt erheblich das Auslesen von Daten aus der 
Tabelle in eine Datenbank. Der Verf ahrensabschnitt S17 bis 
S21 stellt daher eine eigenstandige Erfindung dar, die jedoch 
bevorzugt in Kombination mit dem in Figur 1 dargestellten 
Verfahren, auf der sich der Schritt S16 bezieht, verwendet 
wird. 

Figur 10 zeigt schematisch ein System zum AusfUhren des er- 
findung sgemafi en Verf ahrens . Dieses System 11 weist einen Com- 
puter 12 mit einer Speichereinrichtung 13, mit einer zeritra- 
len Prozessoreinrichtung (CPU) • 14 und eine Interface- 
Einrichtung 15 auf. Am Computer 12 sind ein- Scanner 16, ein 
Bildschirm 2 und eine Eingabeeinrichtung 17 angeschlossen . 
Die Eingabeeinrichtung 17 umfasst eine Tastatur 7 und/oder 
eine Maus 6. 

In der Speichereinrichtung 13 ist ein Sof twareprodukt zum 
Ausfiihren des erf indungsgemalien Verf ahrens - ge-speichert , das 
an der CPU 14 ausgefuhrt wird. Mit dem Scanner 16 werden Do- 
kiamente erfasst .und in eine elektronische Datei umgewandelt. 
Diese elektronischen Dateien werden vom Computer 12 eingele- 
sen und eventuell mittels einer OCR-Routine und/oder eines 
Verfahrens zum Erkennen spezieller Syntax oder Semantik in 
der Datei vorverarbeitet . Danach werden die in den Dateien 
enthaltenen Dokumente entsprechen dem oben beschriebenen Ver- 
fahren mit dem System 11 bearbeitet. An der Eingabeeinrich- 
tung 17 konnen die entsprechenden Eingaben vorgenommen wer- 
den^ wobei diese sich lediglich auf Bewegen des Zeigers 5 und 
ein paar wenige Tastatureingaben beschranken. Gegebenenf alls 
werden die markierten Felder mittels Tastatur oder Mauseinga- 
be verschoben oder durch Vergrofierung bzw. Verkleinerung an- 
gepasst oder der codierte Text editiert. 
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Die Erfindung ist oben anhand eines Ausf iihrungsbeispiels er- 
lautert worden, Im Rahmen der Erfindung sind hiervon Abwand- 
lungen moglich. So kann zum Beispiel anstelle des Rahmans 8 
lediglich der Rahmen 10 vorgesehen werden, in dem der ausge- 
5 wahlte Stringabschnitt vergroBert dargestellt wird. Dieser 
Rahmen 10 stellt auch eine Markierung des Stringabschnittes 
dar . 

Bei dem oben erlSuterten Ausfuhrungsbeispiel werden die Do- 
10 kumente eingescannt und liegen dann in einem Graphikf ormat 
vor. Das erf indungsgemSlie Verfahren kann jedoch auch zum Le- 
sen von Inf ormationen aus Dokumenten angewandt werden^ die 
bereits in "codiertem Text vorliegen, wie zum Bespiel E-Mails- 
Bei einer solchen Anwendung ist es selbstverstandlich nicht 
15 notwendig^ dass die Dckumente mittels einer OCR-Routine in 
codierten Text umgesetzt werden • 

Die Erfindung kann f olgendermafien kurz zusammengef asst wer- 
den: 

20 

Die Erfindung betrifft ein Verfahren zum Erfassen von Daten 
aus maschinell lesbaren Dokumenten, wobei die Daten einer Da- 
tenbank zugeordnet werden. 

25 Mit der Erfindung werden Stringabschnitte, die sich in der 
NShe eines vom Benutzer bewegbaren Zeigers befinden, automa- 
tisch ausgewShlt/ markiert und deren Inhalt zur Obernahme in 
eine Datenbank vorgeschlagen . 

30 Nach einer Weiterbildung des erf indungsgema^en Verfahrens 
kann der Inhalt einer Tabelle vollautomatisch ausgelesen wer- 
den, wenn die Tabelleneintrage in einer ersten Tabellenzeile 
einmal geraafi obigen Verfahren ausgelesen worden sind. 

35 Es wurden Ausf lihrungsbeispiele der Erfindung beschrieben. 
Dabei ist klar, dass der Fachmann jederzeit Abwandlungen und 
Weiterbildungen angeben kann, die das erf indungsgemafie Kon- 
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zept benutzten, Weiterhin kann die Erfindung sowohl mittels 
elektronischen Komponenten (Hardware) als auch durch Compu- 
terprograiranelemente (Software oder Sof twaremodule) realisiert 
warden. Die Erfindung wird dabei insbesondere aus einer Kom- 
bination von elektronischen Hardware-Elementen und Software- 
elementen realisiert. Dement sprechend erfafit die Erfindung 
auch Computerprograinmprodukte wie z.B. elektronische Daten- 
trager. (CD, DVD, Diskette, Bandlaufwerke) bzw. Komponenten, 
die Uber Computernetzwerke (Internet) verbreitet werden 
und/oder auf Computern und insbesondere im Zwischenspeichern 
geladen, bereit gehalten und/oder zum Ablauf gebracht werden. 
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Bezugszeichenlis'te 

1 Dokument 

2 Bildschirm 

5 3 Datenbankfeld 

4 Fenster 

5 Zeiger 

6 Maus 

7 Tastatur 
10 8 Rahmen 

9 Rahmen 

10 Rahmen 

11 System 

12 Computer 

15 13 Speichereinrichtung- 

14 CPU 

15 Interf ace-Einrichtung 

16 Scanner 

17 Eingabeeinrichtung 
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Anspruche 

1. Verfahren zum Erfassen von Daten aus maschinell lesbaren 
Dokumenten, wobei die Daten einer Datenbank zugeordnet 
warden, indent einzelne Daten mSglichst automatisch dem 
Dokument extrahiert werden und in entsprechende Daten- 
bankfelder eingetragen werden, und falls Daten ftir ein 
Oder mehrere bestiinmte Datenbankf elder einem Dokument 
nicht mit der notwendigen Zuverlassigkeit extrahiert wer- 
den konnten, werden folgende SchrittQ ausgefuhrt: 

- Darstellen des Dokumentes an einem Bildschirm, 

- Anzeigen des Datenbankf eldes , ftir das die Daten nicht 
mit der notwendigen Zuverlassigkeit extrahiert werden 
konnten, am Bildschirmr 

- Ausftihren einer Vorschlags-Routine, mit welcher String- 
abschnitte in der Nahe eines von einem Benutzer auf dem 
Bildschirm bewegbaren Zeiger ausgewahlt, markiert und 
zur Extraktion vorgeschlagen werden. 

2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, 

dass der Stringabschnitt nach MaBgabe von dem Datenbank- 
feld zugeordneten Konzept-Inf ormationen ausgewahlt, mar- 
kiert und zur Extraktion vorgeschlagen wird. 

3. Verfahren nach Anspruch 2, 
dadurch gekennzeichnet, 

dass die Konzept-Inf ormationen die Syntax und/oder die 
Semantik des Datenbankf eldes beschreiben, so dass von der 
Vorschlags-Routine ein zu markierender Stringabschnitt 
entsprechend der Syntax bzw. der Semantik des jeweiligen 
Datenbankf eldes ausgewahlt und markiert wird. 
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4. Verfahren nach Anspruch 3, 
dadurch gekennzeichnet, 

dass die Inf ormationen zur Syntax die Anzahl von Ziffern 
und/oder Buchstaben und/oder vorbestimmte Formate des zu 
lesenden Stringabschnitts beschreiben. 

5. Verfahren nach Anspruch 3 oder 4, 
dadurch gekennzeichnet, 

dass die Inf ormationen zur Semantik vorbestimmte Begrif- 
fe, bspw, mit einem Lexikon, beschreiben. 

6- Verfahren nach einem der AnsprUche 1 bis 5, 
dadurch gekennzeichnet, 
dass ein Stringabschnitt ausgewahlt wird, der zwischen 
zwei Begrenzungszeichen angeo'rdnet ist. 

7. Verfahren nach Anspruch 6,, 
dadurch gekennzeichnet, 

dass Begrenzungszeichen Leerzeichen und/oder Satzzeichen 
umfassen. 

8. Verfahren nach einem der Anspruche 1 bis 7, 
dadurch gekennzeichnet, 

dass der Text von Dokumenten in grafischer Darstellung 
zunachst mit einem OCR-Verf ahren in codierten Text umge- 
setzt wird und die Vorschlags-Routine zusStzlich zum mar- 
kierten Stringabschnitt in grafischer Darstellung den co- 
dierten Text dieses Stringabschnittes darstellt. 

9. Verfahren nach einem der AnsprUche 1 bis 1, 
dadurch gekennzeichnet, 

dass zusatzlich zum markierten Stringabschnitt dieser 
Stringabschnitt nochmals in vergrdfierter Darstellung am 
Bildschirm angezeigt wird. 
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10. Verfahren nach einem der Anspriiche 1 bis 9, 
dadurch gekennzeichnet, 

dass die Vorschlags-Routine nach dem Markieren eines 
Stringabschnittes eine Funktion aktiviert, mit welcher 
durch Betatigen einer oder mehrerer vorbestimmter Tasten 
der Inhalt des markierten Stringabschnittes in die Daten- . 
bank ubernoimnen wird. 

11. Verfahren nach einem der Anspriiche 1 bis 10, 
dadurch gekennzeichnet, 

dass beim Ausfiihren der Vorschlags-Routine nach dem Bewe- 
gen des Zeigers ein vorbestimmtes Zeitintervall abgewar- 
tet wird, innerhalb dessen der Zeiger nicht bewegt werden 
darf, bevor ein Stringabschnitt ausgewahlt wird, 

12. Verfahren zum Erfassen von Daten aus maschinell lesbaren 
Dokumenten, wobei die Daten einer Datenbank zugeordnet 
werden, insbesondere nach einem der Anspruche 1-11, 
dadurch gekennzeichnet, 

dass nach dem Einlesen von Daten aus einer ersten Tabel- 
lenzeile in korrespondierende Datenbankf elder automatisch 
die weiteren TabelleneintrSge durch einen Vergleich von 
unterhalb der letzten Tabellenzeile angeordneten String- 
abschnitten mit den Stringabschnitten der ersten Tabel- 
lenzeile, die den eingelesenen Daten entsprechen, ermit- 
telt werden und diese weiteren TabelleneintrSge automa- 
tisch extrahiert werden. 

13. Verfahren nach Anspruch 12, 
dadurch gekennzeichnet, 

dass der Vergleich zwischen den Stringabschnitten mittels 
eines String Matching-Verf ahrens erfolgt. 

14. Verfahren nach Anspruch 12 oder 13, 
dadurch gekennzeichnet, 

dass die ermittelten Tabelleneintrage markiert werden. 
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15. Verfahren nach Anspruch 14, 
dadurch gekennzeichnet, 

dass Funktionen zum Editieren der markierten Tabellenein- 

trage bereitgestellt warden. 

16. System zum Erfassen von Daten aus maschinell lesbaren Do- 
kumenten umfassend einen Computer (12) mit einer Spei- 
chereinrichtung (13) und eine CPU (14), wobei in der 
Speichereinrichtung (13) ein Sof twareprodukt zum AusfUh- 
ren des Verfahrens nach einem der Anspriiche 1-15 ge- 
speichert ist. 

17. System nach Anspruch 16, - 
dadurch geken-nzeichnet, - 

dass das System eine Eingabeeinrichtung (17) in Form ei- 
ner Maus (6) und/oder Tastatur (7) aufweist. 

18- System nach Anspruch 16 oder 17, 

dadurch gekennzeichnet, 

dass das System einen Scanner (16) zum optischen Abtasten 

von Dokumenten aufweist. 



19. Computerprogrammprodukt, das bei seinem Laden und Ausfuh- 
ren auf einem Computer (12) ein Verfahren nach einem der 
Anspriiche 1 bis 15 bewirkt. 
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